2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛

Update: 2025-11-11

Description

本期的 13 篇论文如下：

[00:25 ] 🧩 IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction（IterResearch：基于马尔可夫状态重构的长程智能体再思考）

[01:16 ] 🏆 DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation（DRIVE：面向可验证奖励强化学习的竞赛级代码生成数据精选最佳实践）

[02:03 ] 🔬 The Station: An Open-World Environment for AI-Driven Discovery（“站”：面向AI驱动科学发现的开放世界环境）

[02:43 ] 🚀 RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services（RedOne 2.0：社交网络场景下领域大模型后训练新范式）

[03:15 ] 🧠 SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization（SofT-GRPO：用Gumbel重参数化软思考策略优化让离散Token强化学习望尘莫及）

[03:53 ] 🧭 Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs（路由流形对齐提升混合专家大语言模型的泛化能力）

[04:30 ] 🔍 Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads（以置信度推理：通过不确定性头高效验证大模型推理步骤）

[05:10 ] 🎬 MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs（MVU-Eval：面向多模态大模型的多视频理解评测基准）

[05:50 ] 🎨 MPJudge: Towards Perceptual Assessment of Music-Induced Paintings（MPJudge：面向音乐诱发绘画的感知评估）

[06:57 ] 🔄 RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization（RLoop：一种通过迭代策略初始化自我提升的强化学习框架）

[07:36 ] 🤖 Robot Learning from a Physical World Model（基于物理世界模型的机器人学习）

[08:21 ] 🛠 NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling（NURBGen：基于大模型驱动NURBS建模的高保真文本转CAD生成）

[08:52 ] 🚀 SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?（SWE-fficiency：语言模型能否在真实工作负载下优化真实仓库性能？）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.12.01 | Z-Image小参高效夺冠；REASONEDIT先思后画登顶

2025-12-0109:33

【周末特辑】11月第5周最火AI论文 | 自适应正交稳训练；GAM代理即搜忆

2025-11-2911:54

2025.11.28 | 潜在奖励模型提速降显存；画布多模态生成碾压SOTA

2025-11-2804:47

2025.11.27 | 俄语多模态评测补空白；潜协作提速14%

2025-11-2711:03

2025.11.26 | 大模型育种进化框架开源；MedSAM-3听懂临床精准分割

2025-11-2611:05

2025.11.25 | 即时编译让记忆无损；AutoEnv自动挑环境提两成

2025-11-2510:01

2025.11.24 | 开源7B模型刷新多模态推理；GeoVista小模型精准地理定位

2025-11-2410:42

【周末特辑】11月第4周最火AI论文 | Kandinsky 5.0开源全家桶；MiroThinker开源智能体

2025-11-2210:19

2025.11.21 | V-ReasonBench考视频模型推理；Step-Audio-R1让语音越“想”越强

2025-11-2109:54

2025.11.20 | 视频模型拍推理链，迷宫百发百中；无标注左右互搏，视觉模型自学跃升

2025-11-2003:36

2025.11.19 | 像素演员难推理；视觉误导测真章

2025-11-1908:19

2025.11.18 | RL奥赛夺金；Uni-MoE 2.0全能跃升

2025-11-1810:08

2025.11.17 | RoPE去噪救长文本；AI速筛离子液体

2025-11-1710:06

【周末特辑】11月第3周最火AI论文 | 3D游戏智能体开源方案；桌面AI少样本精准操控

2025-11-1511:34

2025.11.14 | UniVA四合一开源视频通才；Depth Anything 3单ViT通吃3D

2025-11-1403:25

2025.11.13 | 原神数据炼成7B通用AI；零训练轨迹秒变视频遥控器

2025-11-1306:28

2025.11.12 | 1.5B小模型反超671B大模型；多智能体质检聊天机器人

2025-11-1206:56

2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛

2025-11-1109:58

2025.11.10 | DeepEyesV2小模型边看图边写代码；纯数据让AI长出立体眼

2025-11-1005:30

【周末特辑】11月第2周最火AI论文 | 视频生成即推理；SVG草图变代码

2025-11-0812:07

00:00

1.0x

2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛

#box-pro-ellipsis-176467866645265{-webkit-line-clamp:2;}2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛

2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛

2025.11.11 | 小窗口勤总结刷新深度研究；先广撒网再啃难题激活代码竞赛